A inferência estatística pergunta: "Dado este conjunto de dados, quais são os parâmetros subjacentes mais prováveis?" Este slide conecta essa pergunta com Otimização Convexa. Transformamos a noção probabilística de verossimilhança em um programa estruturado, mostrando que, sob condições de log-concavidade, encontrar a melhor estimativa é equivalente a resolver um problema de otimização convexa.
O Quadro da Verossimilhança
A função de verossimilhança é a distribuição de probabilidade $p_x(y)$ considerada como uma função do parâmetro $x$ para uma amostra observada fixa $y$. Para estimar $x$, empregamos estimação de máxima verossimilhança (ML): escolhendo o valor que torna os dados observados mais prováveis.
$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$
Para eficiência computacional, usamos a função de log-verossimilhança, $l(x) = \log p_x(y)$. Como o logaritmo é uma função monotonicamente crescente, preserva a localização do máximo enquanto transforma produtos (de observações independentes) em somas fáceis de gerenciar.
O Programa de Otimização de MLE (7.1)
Formalizamos a estimativa como um programa matemático:
Este programa é um problema de otimização convexa se:
- A função de log-verossimilhança $l$ é concava para cada valor de $y$.
- O conjunto viável $C$ (informação prévia) é descrito por restrições lineares de igualdade e desigualdades convexas.
Integração de Restrições e Informações Prévias
A estimativa de máxima verossimilhança exige redefinir $p_x(y)$ como zero para $x \notin C$ para impor explicitamente restrições físicas ou prévias. No espaço de otimização, isso significa que a função de log-verossimilhança recebe o valor $-\infty$ para parâmetros $x$ que violam essas restrições, criando efetivamente uma barreira intransponível para o otimizador.